Cloud Data Fusion の Wrangler を使って文字コード変換してみた

#Google Cloud (GCP)

#Google BigQuery

エノカワ

2022.10.22

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは！エノカワです。

Google Cloud のデータ統合サービスである Cloud Data Fusion は、データパイプラインを迅速に構築・管理するためのフルマネージドなサービスです。

前回、Cloud Data Fusion で外部データをBigQueryテーブルに投入することを試してみたのですが、必要なノードを配置して接続してプロパティを設定して、、という作業をGUI上で完結してできるので、手軽にデータパイプランを作成することができました。

BigQueryテーブルのデータ取り込み

ところで、BigQueryテーブルのデータ取り込みの形式は、UTF-8 のエンコードをサポートします。
（CSV ファイルの場合のみ、フラットデータについて ISO-8859-1 エンコードもサポート）

データの取り込み方法の選択 | BigQuery | Google Cloud

では、文字コードが UTF-8 以外のデータをBigQueryテーブルに取り込む場合、Cloud Data Fusion ではどのようにパイプラインを構成すればよいのでしょうか？

そこで今回は、Cloud Data Fusion で文字コードを変換してBigQueryテーブルする際に試したことをご紹介します。

作成するパイプライン

いきなり結論になりますが、文字コード変換にはWranglerノードを使用しました。
作成したパイプラインは以下です。

GCSノードでデータを取得し、Wranglerノードで文字コード変換、CSV ParseノードでCSVパースを行い、BigQueryノードでBigQueryテーブルにデータを取り込みます。

データ準備

BigQueryテーブルに取り込むデータファイルを準備します。

以下のサイトでCSV形式のデータファイルを作成しました。

TM - WebTools

ヘッダーなしのシンプルでスモールな名簿データです。
※実在の人物やメールアドレスとは一切関連ございません。

7361,山県 勇次,SDY4APj6@sample.co.jp
844,早田 年紀,q3uOWln0B3@sample.jp
7876,真壁 雅信,WxP0tq@sample.net
5069,高坂 良彦,Wy006FsFTy@test.net
5695,丹治 陽向,mRtoZYgYwl@sample.co.jp
8112,西口 敦盛,e11Rzz5QM@test.org
6416,安村 澄子,wbc35@test.org
9289,仲 三夫,E_3pv@example.com
354,大西 晴菜,sFWPKMr@example.com
9312,武井 灯,hlhfXl0vv@test.net

作成したCSVファイルは、任意のGCSバケットにアップロードしておきます。

インスタンス作成

何はともあれ Cloud Data Fusion インスタンスを作成します。

具体的な作成手順は今回は割愛します。

インスタンス作成、パイプライン構築、デプロイなど Cloud Data Fusion の基本的な操作については、下記エントリで紹介しておりますので、こちらもご参照ください！

パイプライン作成（文字コード変換なし）

まずは文字コード UTF-8 のデータをBigQueryテーブルにロードしてみましょう。
UTF-8 のエンコードはサポートされているので、文字コード変換は不要です。

GCS Source ノード設定

画面左のSourceからGCSを選択して Pipeline Studio に配置します。

GCSノードのPropertiesをクリックして、プロパティ画面を開きます。

GCS設定

識別名、GCSパス、フォーマットを入力します。

Reference Name
GCS
Path
gs://fusion_training_bucket/generated.csv
※GCSにアップロードしたCSVファイルを指定
Format
csvを選択

出力データ構造

Output Schemaに出力データ構造を入力します。
CSVファイルの値をもとにフィールド名、フィールド型を指定します。
ここで指定したデータ構造が後続のノードに渡されます。

BigQuery Sink ノード設定

次にBigQueryノードを設定します。
画面左のSinkからBigQueryを選択して、 Pipeline Studio に配置します。
GCSノードから矢印を引っ張ってBigQueryノードに接続します。

BigQueryノードのPropertiesをクリックして、プロパティ画面を開きます。

BigQueryテーブル設定

識別名、データセット名、テーブル名を入力します。

Reference Name
BigQuery
Dataset
fusion_training_dataset
Table
generated_csv

プレビュー実行

パイプライン構築が完了したので、正しく動作するかプレビュー実行してみましょう。

画面右上のPreviewをクリックしてプレビューモードにしてから、Runをクリックします。

しばらくすると、プレビュー実行が成功したメッセージが表示されます。

BigQueryノードのPreview Dataをクリックすると、　データを見ることができます。
正しくデータが渡ってきていることが分かります。

パイプライン作成（文字コード変換あり）

ここからが本題です。
文字コード UTF-8 以外のデータをBigQueryテーブルに取り込んでみましょう。
今回は文字コード UTF-16 のデータを試してみます。

下記コマンドにより、作成したCSVファイルを UTF-16 の変換しました。

$ iconv -f UTF-8 -t UTF-16 generated.csv > generated_utf16.csv

先ほどと同様、CSVファイルを任意のGCSバケットにアップロードしておきます。

実は、GCSノードにはファイルの文字コードを指定するプロパティFile encodingがあります。

プルダウンから選択するのですが、残念ながらリストの中に UTF-16 はありません。。

そこで今回は、WranglerノードとCSV Parseノードを使用します。

画面左のTransformからWranglerと*CSV Parser**を選択して、 Pipeline Studio に配置します。

GCS、Wrangler、CSV Parser、BigQueryの順にノードを接続します。